word rank | frequency | word |
---|---|---|
1 | 1150775 | 있다 |
2 | 734975 | 수 |
3 | 694359 | 등 |
4 | 636522 | 있는 |
5 | 527075 | 고 |
6 | 517608 | 이 |
7 | 393533 | 지난 |
8 | 387659 | 위해 |
9 | 350428 | 대한 |
word rank | frequency | word |
---|---|---|
10 | 343932 | 것으로 |
20 | 240363 | 위한 |
30 | 186239 | 이날 |
40 | 145804 | 중 |
50 | 129384 | 다른 |
60 | 118100 | 없는 |
70 | 105834 | 아니라 |
80 | 93808 | 모든 |
90 | 89870 | 이를 |
word rank | frequency | word |
---|---|---|
100 | 83697 | 첫 |
200 | 44281 | 시즌 |
300 | 33076 | 정부의 |
400 | 26701 | 9일 |
500 | 23778 | 아파트 |
600 | 20324 | 올랐다 |
700 | 18031 | 발표한 |
800 | 16170 | 힘든 |
900 | 14661 | 국회의원 |
word rank | frequency | word |
---|---|---|
1000 | 13326 | 건강한 |
2000 | 7331 | 주관하는 |
3000 | 5223 | 문화의 |
4000 | 4063 | 중국을 |
5000 | 3316 | 품질 |
6000 | 2765 | 설립된 |
7000 | 2379 | 소프트웨어 |
8000 | 2086 | 생산한 |
9000 | 1860 | 어려움에 |
word rank | frequency | word |
---|---|---|
10000 | 1681 | 만인 |
20000 | 822 | 흔치 |
30000 | 524 | 쇄신을 |
40000 | 376 | 발주하는 |
50000 | 289 | 1차례 |
60000 | 233 | 미래에셋대우 |
70000 | 194 | 질의했다 |
80000 | 164 | 27일에 |
90000 | 142 | 당선자들이 |
word rank | frequency | word |
---|---|---|
100000 | 125 | 힘들었다고 |
200000 | 51 | 고깃집 |
300000 | 30 | 명연기를 |
400000 | 21 | 피워보지도 |
500000 | 15 | 나무다리를 |
600000 | 12 | 소유했다는 |
700000 | 10 | 전투'를 |
800000 | 8 | 두사부일체'와 |
900000 | 7 | 서귀포문화원 |
word rank | frequency | word |
---|---|---|
1000000 | 6 | 민주주의'로 |
2000000 | 2 | 1,151억원 |
3000000 | 2 | 판세나 |
4000000 | 1 | ‘지식창조의 |
5000000 | 1 | 더워졌으니 |
6000000 | 1 | 쇠고기다 |
7000000 | 1 | 전시장안에 |
8000000 | 1 | 홍보대사자격으로 |
Words from different frequency regions are shown. For simplicity, the words with rank k10n, k=1,2,…,9; n=0,1,…, are chosen. In the case n=0 we see the 10 most frequent words, of course.
The tables provide words with fixed rank which might be useful for several comparisons. The average word should get longer with its rank.
For meaningful words at higher ranks we need at least medium a sized corpus.
For rank 1000, 2000, …, 9000:
set @k=3;
select w_id-100 as rank, freq, word from where w_id-100 in (1*pow(10,@k),2*pow(10,@k), 3*pow(10,@k),4*pow(10,@k),5*pow(10,@k), 6*pow(10,@k),7*pow(10,@k),8*pow(10,@k), 9*pow(10,@k)) order by rank;
3.2.1. The most frequent 50 words